视频更新版：批量下载公众号文章内容/话题/图片/封面/音频/视频，导出html，pdf，excel包含阅读数/点赞数/留言数

Original 苏生不惑苏生不惑 2022-12-01

苏生不惑第385篇原创文章，将本公众号设为星标，第一时间看最新文章。

之前发过文章一键批量下载微信公众号文章内容/图片/封面/视频/音频，支持导出html和pdf格式，包含阅读数/点赞数/在看数/留言数，这里再整理更新下我周末录制的视频。

批量下载公众号文章是通过抓包用python下载的，我之前的文章说过，有空再写篇抓包的文章，下载效果：下载的文件有文章内容html，文章链接markdown，文章数据excel，数据包含文章日期，文章标题，文章链接，文章简介，文章作者，文章封面图，是否原创，IP归属地，阅读数，在看数，点赞数，留言数，赞赏次数等，比如深圳卫健委这个号的阅读数都是10万+。为了方便找文章，部分公众号的历史文章同步到我的博客https://sushengbuhuo.github.io/blog ，不用在手机上翻历史文章了，比如深圳卫健委从2014到2022年发布了1万多篇文章，第一篇文章是这个：文章下的留言内容也可以下载到excel（包含文章日期，文章标题文章链接，留言昵称，留言内容，点赞数，回复和留言时间等），比如深圳卫健委在2月份就有1万6千多条留言，如果你有需要下载的公众号或抓取数据可以微信 sushengbuhuo 联系我。接着用python pandas分析excel里的数据听说公众号深圳卫健委被网友投诉尺度大，我抓取了所有文章标题和阅读数分析了下

wechat=pd.read_csv('xxx公众号历史文章.csv',encoding='utf-8')

查看文章总数：

len(wechat)

查看阅读数总数：

>>> wechat.阅读数.sum()
8191166

文章量发布作者前5：

>>> wechat.文章作者.value_counts().sort_values(ascending=False).head(5)
xxx    331
Name: 文章作者, dtype: int64

阅读数大于10万+文章列表：

>>> wechat[wechat.阅读数>100000]
           文章日期                  文章标题                                               文章链接  ...     阅读数  在
看数   点赞数
139  2021-08-08  xxx   mp.weixin.qq.com/s...  ...  100001
 825  1742

[1 rows x 12 columns]

阅读数排行前10的文章列表:

>>> wechat[['文章日期','文章标题','文章链接','阅读数']].sort_values(by='阅读数', ascending=False).head(10)

阅读数点赞数在看数平均值：

>>> wechat[['阅读数','点赞数','在看数']].mean()
阅读数    24746.725076
点赞数      622.480363
在看数      260.145015
dtype: float64

头条的阅读数点赞数在看数平均值：

>>> wechat[wechat.文章位置 == 1][['阅读数','点赞数','在看数']].mean()
阅读数    28413.407407
点赞数      667.126984
在看数      276.148148
dtype: float64

头条和次条文章数：

wechat.groupby('文章位置',as_index=False).agg({"在看数":'count'}).sort_values(by=['在看数'],ascending=False).head(5)
>>> wechat.文章位置.value_counts().sort_values(ascending=False).head(5)
1    189
2    142
Name: 文章位置, dtype: int64
wechat.query('文章位置 == 2')

原创文章数：

wechat.groupby('是否原创')['在看数'].count().sort_values(ascending=False).head(5)
wechat.groupby('是否原创').agg({"在看数":'count'}).sort_values(by=['在看数'],ascending=False).head(5)
>>> wechat.是否原创.value_counts().sort_values(ascending=False).head(5)
是    331
Name: 是否原创, dtype: int64

还有评论区的IP归属地分布分析，我之前的文章也分析过微博/公众号/抖音等各大平台都显示 ip 归属地了，能改吗？，一键批量下载微博评论数据，并分析ip归属地分布

说完文章数据然后是下载的文章内容，包括图片/封面/视频/音频，批量下载图片效果：

下载的图片文件名为文章发布时间加文章标题和数字，方便查看：

另外每个月我会更新一次公众号深圳卫健委的封面表情包图，无水印，欢迎收藏 2022 年 10 月公众号深圳卫健委历史文章无水印封面表情包，分享到网盘了，表情包文件名为文章发布日期加标题，方便搜索，在公众号苏生不惑后台发送 封面 获取这个号2019-2021年的所有封面图，2022年结束的时候再下载2022封面图。批量音频效果如图，由于视频比较大，只下载了视频链接，可以用idm二次下载：文章内容是html文件，可以用谷歌浏览器打开，html再批量转换成pdf。

将转换后的pdf再合并成一个文件并生成书签苏生不惑又写了个pdf合并带书签小工具

代码如下：

import logging,os,html
from PyPDF2 import  PdfFileReader, PdfFileWriter,PdfFileMerger#pip install PyPDF2
file_writer = PdfFileWriter()
merger = PdfFileMerger()
num = 0
for root, dirs, files in os.walk('.'):
    for name in files:
        if name.endswith(".pdf"):
            file_reader = PdfFileReader(name)
            file_writer.addBookmark(html.unescape(name).replace('.pdf',''), num, parent=None)            
            for page in range(file_reader.getNumPages()):
                num += 1
                file_writer.addPage(file_reader.getPage(page))
with open(r"公众号苏生不惑历史文章合集.pdf",'wb') as f:
    file_writer.write(f)

文章下的留言也在pdf文件里，点击左侧书签可以跳转到对应文章：最后再说下我开发的公众号文章下载工具更新版：整理下苏生不惑开发过的那些工具和脚本，可以下载单篇文章/话题下的文章/音频/视频，在公众号后台对话框回复 公众号 获取下载地址，由于是python3.9开发的，不支持Windows7。

输入公众号文章链接，批量下载文章里的音频效果图：批量下载视频效果图：顺便把文章内容也下载到html了，如果有bug可以向我反馈：公众号话题的下载以这个话题为例：

输入话题地址的下载效果如图：

音频/视频和文章内容html都下载了:

下载的文章链接保存到文件wechat_topic_list.txt，如果第2次下载会跳过已经下载过的文章，效果如图：

话题里的纯音频也支持下载，这次我用golang重写了golang 开发入门教程，顺便写了个公众号批量下载工具，输入话题链接的下载效果如图，990个音频很快就下载完了。

音频地址也保存在文件wechat_topic_audio_list.txt ，如果第2次下载也会跳过已经下载过的音频，效果如图：

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

毕业论文辅导| 你又不是伞，硕士论文|毕业论文|博士论文|课题论文不行就被硬撑了,靠谱的辅导机构才是晴雨伞！

“四川大学姜涛与爱人程月玲”，你们现在还好吗？

半年狂赚63亿了，微众银行董事长，还要卷员工

为了这部描述从“反右”到“文革”的禁片，田壮壮付出了十年不能拍片的代价

视频更新版：批量下载公众号文章内容/话题/图片/封面/音频/视频，导出html，pdf，excel包含阅读数/点赞数/留言数

公众号苏生不惑

您可能也对以下帖子感兴趣

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

毕业论文辅导| 你又不是伞，硕士论文|毕业论文|博士论文|课题论文不行就被硬撑了,靠谱的辅导机构才是晴雨伞！

“四川大学姜涛与爱人程月玲”，你们现在还好吗？

半年狂赚63亿了，微众银行董事长，还要卷员工

为了这部描述从“反右”到“文革”的禁片，田壮壮付出了十年不能拍片的代价

生成图片，分享到微信朋友圈

视频更新版：批量下载公众号文章内容/话题/图片/封面/音频/视频，导出html，pdf，excel包含阅读数/点赞数/留言数

公众号苏生不惑

您可能也对以下帖子感兴趣